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摘 要 : 卷 积 神经 网 络 (CNN) 的 发 展 带 来 了 大 量 的 网 络 参数 和 庞大 的 模型 体积 ， 
Jo OWN CNN Diz 


计算 资源 设备 上 的 应 


极 大 地 限制 了 其 在 小 规模 


j 在 各 种 小 型 设备 上 ， 研 究 了 一 种 基于 知识 葵 馏 的 结构 化 模型 压缩 方 


法 。 该 方法 首先 利用 VGG16 训 练 了 一 个 识别 率 较 高 的 教师 模型 再 将 该 模型 中 的 知识 通过 蒸馏 的 方法 迁移 


到 MobileNet， 从 而 大 幅 减 少 了 模型 的 参数 量 。 将 知识 蒸馏 后 的 Distilled-MobileNet 模 型 应 


在 14 种 作物 的 38 


种 常见 病害 分 类 中 。 进 行 了 知识 蒸馏 在 VGG16 、AlexNet、GoogleNet 和 ResNet 4 种 不 同 网 络 结 构 上 的 表现 测 
试 ， 结 果 表 明 ， 当 VGG16 作 为 教师 模型 时 ， 模 型 准确 率 提升 了 97.54%; 使 用 单个 病害 识别 率 、 平 均 准 确 率 、 
模型 内 存 、 平 均 识 别 时 间 4 个 指标 对 训练 好 的 Distilled-MobileNet 模 型 进行 真实 环境 下 准确 性 评估 ， 经 测试 ， 
模型 的 平均 准确 率 达 到 了 97.62% ， 平 均 识 别 时 间 缩 短 至 0.218s， 仅 占 VGG16 模 型 的 13.20% ， 模 型 大 小 压缩 


仅 为 19.83 MB ， 相 比 于 VGG16 缩 小 了 93.60%， 使 其 具备 了 较 高 的 准确 性 和 实时 性 


求 。 本 方法 模型 在 压缩 


内 存 体积 和 缩短 识别 时 间 上 较 传 统 神经 网 络 有 了 明显 提高 ， 为 内 存 和 计算 资源 受 限 设备 上 的 病害 识别 提供 


了 新 的 思路 。 
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1 引言 


卷 积 神经 网 络 (Convolutional Neural Net- 
works，CNN) 由 于 具有 自动 提取 特征 和 无 压力 


处 理 高 维 数据 等 优势 ， 已 经 在 


常 广泛 的 应 用 ， 在 农业 病虫害 识别 方面 的 应 用 已 
经 成 为 了 热门 的 研究 方向 中。 例如 ，Karleka 和 


的 叶片 
各 个 领域 都 有 了 非 
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的 网 络 权 重 进行 分 析 ， 并 使 用 简单 线性 迭代 聚 类 
(Simple Linear Iterative Clustering, SLIC) 方法 
对 图 片 分 割 出 大 豆 叶 片 进行 了 识别 ， 准 确 率 高 达 
99.04%。Adeel 等 ”提出 了 一 种 新 的 识别 框架 对 
葡萄 病害 进行 早期 检测 ， 通 过 提取 AlexNet 和 
ResNet101 经 过 迁移 学 习 后 的 特征 ， 使 用 YEaK 
技术 选择 出 最 好 的 特征 ， 之 后 使 用 并 行 方法 融合 
这 些 强 特征 ， 最 后 输入 最 小 二 乘 支 持 向 量 机 
(Least Squared Support Vector Machine, LSSVM) 
中 进行 分 类 ， 对 从 PlantVillage 数据 集 得 到 的 受 
感染 葡萄 叶片 进行 模拟 ， 获 得 了 99% 的 准确 率 。 
Zhang 等 5 使 用 基于 深度 学 习 的 改进 的 Google- 
LeNet 和 Cifar-10 模型 ， 用 于 玉米 叶片 病害 的 识 
别 ， 平 均 识 别 准确 率 为 98.9%。 陈 桂 芬 等 “ 使 用 
迁移 学 习 的 方法 在 预 训练 模型 的 基础 上 训练 了 卷 
积 神经 网 络 ,， 识别 准确 率 达 到 了 96.6%. RE 
Ting”! 使 用 深度 残 差 网 络 模型 ， 对 番茄 四 种 常见 
病害 进行 了 识别 ， 准 确 率 达 到 95% 以 上 。 上 述 病 
害 识别 方法 的 准确 率 均 达到 了 90% 以 上 ， 由 此 可 
见 ，CNN 已 经 在 农业 病虫害 识别 领域 有 了 广泛 
的 应 用 ， 并 取得 了 不 错 的 效果 。 

然而 ，CNN 经 过 多 年 的 发 展 ， 网 络 结构 越 
来 越 复杂 ， 网 络 参数 不 计 其 数 ， 需 要 耗费 大 量 的 
存储 资源 跟 计 算 资 源 。 经 典 的 VGG-16 图 像 分 类 
网 络 包含 1.38 亿 个 参数 ， 而 最 新 的 ResNet-200 仍 
然 包含 超过 6000 万 个 参数 。 网 络 越 复杂 ， 消 耗 
的 磁盘 空间 和 内 存 就 越 大 ， 并 且 识 别 速度 就 越 
慢 。 研 究 表明 ， 在 计算 资源 受 限 的 ARM 平 台 上 ， 
单 张 图 片 的 识别 时 间 达 到 13.2s 以 上 所 ， 远 远 不 
能 满足 用 户 对 于 实时 性 的 要 求 。 即 使 将 模型 部 署 
在 云 服 务 器 ， 也 无 法 从 本 质 上 解决 复杂 神经 网 络 
模型 内 存 占用 大 、 识 别 时 间 长 的 问题 ， 且 部 署 在 
服务 需 上 的 模型 识别 时 间 易 受到 网 络 环境 波动 的 
影响 ， 无 法 在 网 络 受 限 的 环境 中 使 用 。 因 此 ， 如 
何 对 复杂 的 神经 网 络 模型 进行 压缩 ， 使 其 满足 在 
终端 设备 使 用 时 的 实时 性 要 求 和 更 低 的 内 存 占用 
限制 ， 是 目前 神经 网 络 或 待 解决 的 问题 。 

针对 上 述 情况 ， 近 年 来 有 学 者 提出 了 不 同 的 


模型 精简 方法 。Han 等 ”提出 了 ClipDL 模型 , 
通过 同时 减少 模型 参数 的 数量 以 及 减少 仅 对 关键 
数据 的 计算 来 加 速 深度 学 习 系 统 运 行 ， 将 模型 训 
练 过 程 平 均 加 速 了 2.32 倍 ， 模 型 大 小 基本 保持 不 
变 ， 而 准确 性 损失 仅 为 1.86% 。Rahman $E  #F 
对 移动 设备 提出 了 一 种 具有 两 个 阶段 的 小 型 
CNN 模型 ， 该 模型 在 准确 率 上 达到 了 期 望 准确 
率 的 93.3%， 并且 具 有 更 小 的 结构 规模 ， 跟 
VGG16 对 比 ， 其 结构 规模 减少 了 99%。 Shih 
等 提出 了 具有 扩张 卷 积 和 多 尺度 特征 串联 的 
简化 区 域 提 议 网 络 (Reduced Region Proposal 
Network，RRPN) ， 模 型 的 检测 准确 率 相 比 ZF- 
Net 提 高 了 2.2%~60.2%， 相 对 压缩 了 ZF-Net 网 
络 的 81.3% 的 规模 大 小 。Hc 等 “提出 了 一 种 称 
为 块 更 改 学 习 (Block Change Learning, BCL) 
的 方法 ,该 方法 通过 更 改 由 “ 层 ” 组 成 的 “ 块 ” 
来 执行 局 部 和 全 局 知识 提炼 。 在 专门 针对 特征 提 
取 任 务 当 中 ，BCL 仪表 现 出 约 5% 的 性 能 下 降 ， 
而 其 他 方法 的 模型 性 能 下 降 约 为 17%。Wu 等 '” 
提出 了 用 于 压缩 视频 动作 识别 的 框架 来 对 模型 进 
行 压 缩 ， 压 缩 后 的 模型 准确 率 下 降 了 0.35%， 但 
参数 量 上 的 压缩 率 达 到 2.4 倍 ， 计 算 量 减少 
1.2 倍 。 

目前 ， 上 述 模型 压缩 方法 存在 压缩 率 不 高 和 
压缩 后 模型 精度 下 降 的 问题 ， 因 此 ， 本 研究 结合 
PlantVillage “ 植物 病害 数据 集 ， 提 出 了 一 种 基 
于 知识 蒸馏 “的 轻 量 级 卷 积 神经 网 络 精简 方法 ， 
在 广西 壮族 自治 区 农业 科学 院 提 供 的 含有 复杂 背 
景 的 数据 集 上 做 了 真实 环境 下 的 模型 性 能 测试 ， 
结果 表明 ， 该 方法 不 以 损失 模型 精度 为 代价 ， 能 
够 大 幅 降 低 模 型 内 存 的 要 求 。 本 方法 具有 通用 
性 ， 无 论 是 将 模型 部 署 在 云 服 务 器 还 是 本 地 设备 
中 ， 都 可 以 在 少量 的 教师 机 内 存 占 用 和 训练 开销 
降低 的 同时 ， 降 低 模型 参数 量 、 提 高 模型 精度 。 


2 数据 样本 集 


本 研究 使 用 的 数据 集 来 自 PlantVillage 标准 
数据 集 和 自 建 数据 集 两 个 部 分 。 
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2.1 PlantVillage 数据 集 


PlantVillage 数据 集 包 含 来 自 14 种 植物 的 
54,305 张 植物 叶片 图 ， 共 38 种 常见 病害 。 叶 片 
图 像 均 为 实验 室 环 境 下 拍摄 的 单一 背景 图 像 ， 每 
类 的 图 像 数 量 从 152 张 到 5507 张 不 等 。 将 数据 集 
按照 80% 和 20% 的 比例 划分 为 训练 集 和 验证 集 。 
数据 集中 部 分 病害 的 为 害 状 如 图 1 所 示 。 由 于 病 
原 体感 染 农 作物 的 方式 相似 ,不同 的 农作物 可 能 
会 感染 相同 的 病原 体 ， 因 此 导致 图 1 中 不 同 农 作 
物 会 患 有 同 种 疾病 。 


- 


注 :1. 革 果 黑 星 病 UFR 3. RGM 4. 革 果 健 康 叶 片 
5. 蓝莓 健康 叶片 6. 樱 桃 健 康 叶片 7. 樱 桃 白粉 病 8. 玉 米 褐 斑 病 
9. 玉 米 锈病 10. 玉 米 健康 叶片 11. 玉 米 大 斑 病 IAAL BM 
13. 葡萄 埃 斯 卡 真菌 病 14. 葡萄 健康 叶片 15. 欧 叶 枯 16. 桔 子 黄 
龙 病 17. 桃 子 菌 斑 18. 桃 子 健康 叶 19. 椒 铃 菌 斑 20. 椒 铃 健康 叶 
片 21. 马 铃 昔 早 疫病 22. 马 铃 莫 健 康 叶 片 23. 马 铃 暮 晚 疫 病 
24. 窗 盆子 健康 叶片 25. 大 豆 健康 叶片 26. 南瓜 白粉 病 27. %4 
健康 叶片 28. 草 蓄 叶 焦 病 29. Bie ht 30. 番茄 早 疫病 31.4 
茄 健康 叶片 32. 番 茄 晚 疫病 
图 1 PlantVillage 数 据 集 部 分 展示 

Fig. 1 Part ofthe samples ofthe PlantVillage dataset 

为 使 识 别 模型 具有 更 好 的 鲁 棒 性 …' ， 本 研 
究 还 使 用 了 基于 深度 卷 积 生成 对 抗 网 络 (Deep 
Convolutional Generative Adversarial Networks, 
DCGAN) 的 数据 增强 方法 "模拟 产生 了 5861 
张 新 图 像 参 与 建 模 ， 部 分 样本 如 图 2 所 示 。 经 过 
感知 哈 希 算法 测试， 生成 模型 产生 的 新 样本 
和 真实 样本 之 间 的 平均 相似 度 达 到 了 98.75% 以 
上 ， 表 明 产 生 的 图 像 和 真实 图 片 相 类 似 ， 能 够 作 
为 扩充 样本 。 


2.2 自 建 数据 集 
在 使 用 Plantvillage 数 据 集 的 基础 上 ， 本 研 


图 2 深度 卷 积 对 抗 生 成 网 络 生 成 样本 
Fig. 2 Samples of deep convolutional generative 


adversarial network 


究 还 使 用 了 一 个 自 建 数据 集 ， 其 中 包括 4835 张 
芒果 炭 痊 病 图 片 和 4810 张 芒果 白粉 病 图 片 ， 如 
图 3 所 示 。 该 数据 集 由 广西 壮族 自治 区 农业 科学 
研究 院 植保 所 提供 ， 图 片 使 用 佳能 5D mark II 型 
数码 相机 拍摄 ， 像 素 为 4475x3840， 图 片 中 病 斑 
点 轮廓 所 占 面积 大 于 叶片 面积 的 10%。 自 建 数据 
集中 的 图 片 均 为 真实 环境 下 拍摄 的 具有 复杂 背景 
的 照片 ， 主 要 用 于 模型 的 测试 。 表 1 给 出 了 本 研 
究 所 用 数据 集 的 详细 分 布 情况 。 


(a) 芒 果 和 白粉 病 (b) ER RII 
图 3 自 建 数据 集 样本 

Fig. 3 Samples of self-built dataset 
表 1 试验 数据 集结 构 


Table 1 Experimental data set 


试验 样本 图 片 数 量 / 张 
PlantVillage 数 据 集 54,305 
DCGAN 样 本 扩充 5861 

数据 增强 76,639 

自 建 数据 集 9645 


3 识别 模型 训练 及 其 精简 结构 设计 

本 研究 提出 了 一 种 结构 化 的 病害 识别 方法 及 
双 量 级 神经 网 络 精简 方法 ， 图 4 为 本 研究 的 整体 
设计 ， 大 致 分 为 以 下 三 个 步骤 。 
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训练 


Plant Village 迁移 
数据 集 学 习 


图 4 研究 整体 结构 图 
Fig. 4 Overall structure of diagram 

(1) 采用 DCGAN 产 生 大 量 数据 样本 ， 实 现 
数据 扩充 。 此 外 ， 本 研究 对 扩充 后 的 数据 使 用 了 
几 种 常见 数据 增强 方法 ， 包 括 平移 、 旋 转 、 缩 
放 、 剪 裁 和 翻转 等 ， 从 而 提高 了 模型 的 平移 、 缩 
放 等 不 变性 ， 有 效 地 防止 了 模型 过 拟 合 。 

(2) 为 了 加 快 模型 在 训练 过 程 中 的 收敛 速 
度 ， 本 研究 使 用 迁移 学 习 " 的 方法 ， 将 不 同 网 
络 结构 在 ImageNet 数 据 集 上 预先 训练 好 的 权 值 
迁移 到 对 应 的 不 同 网 络 结构 中 ， 在 此 基础 上 训练 
不 同 神经 网 络 模 型 。 

(3) 在 训练 好 的 模型 上 使 用 知识 蒸馏 方 法 ， 
将 知识 从 元 余 的 集成 模型 转移 到 轻 量 级 模型 中 ， 
并 保留 复杂 网 络 的 性 能 ， 从 而 训练 得 到 精简 模 
型 ， 通 过 这 种 方法 有 效 地 降低 模型 体积 ， 提 高 模 
型 精度 。 


3.1 识别 模型 MobileNet 的 训练 


MobileNet 是 Google 提出 的 轻 量 级 神经 网 
络 ， 用 于 解决 复杂 模型 在 移动 端 和 区 入 式 终端 上 
无 法 使 用 的 问题 他。 相 比 于 其 他 神经 网 络 ，Mo- 
bileNet 的 计算 复杂 度 和 模型 内 存 都 很 小 ， 网 络 参 
数 总 量 为 132 万 ， 内 存 仅 占 VGG16 的 3%。 因 此 ， 
本 研究 选择 MobileNet 作为 学 生 模 型 进行 训练 。 
MobileNet 模 型 的 核心 是 深度 可 分 离 卷 积 (Dep- 
thwise Separable Convolution，DSC) ， 原 理 如 图 5 
所 示 ，DSC 将 标准 卷 积 分 解 成 深度 卷 积 和 和 逐 点 
卷 积 。 

假设 神经 网 络 的 输入 图 片 维度 为 D; x Dr x M, 
深度 卷 积 的 卷 积 核 大 小 为 De x Dx x 1， 个 数 为 


RGB 图 像 深度 卷 积 逐 点 卷 积 
图 5 深度 可 分 离 卷 积 原理 
Fig. 5 Depthwise separable convolution 
M， 逐 点 卷 积 的 卷 积 核 大 小 为 1 x 1 x M， 个 数 为 
N， 经 过 卷 积 后 输出 维度 为 D。 x De x N, WER 
度 可 分 离 卷 积 的 计算 成 本 与 常规 卷 积 操作 的 比值 
如 公式 (1) 所 示 。 
DSC _ 1l | 1 
Std cov N Dè 
HHA, DSC Fil Std conv 分别 表示 深度 可 分 离 
卷 积 和 常规 卷 积 操作 的 参数 量 ; N 为 逐 点 卷 积 核 
的 个 数 ， 个 ; Dx 为 深度 卷 积 核 的 大 小 。 
由 公式 (1) 可 知 ， 当 卷 积 核 个 数 越 少 、 尺 
才 越 小 时 ， 深 度 可 分 离 卷 积 相 对 于 常规 卷 积 操作 
就 可 以 减少 更 多 的 参数 量 。 


(1) 


3.2 精简 模型 Distilled-MobileNet 设 计 


在 知识 蒸馏 的 学 习 过 程 中 ， 学 生 模 型 是 通 
过 模仿 教师 模型 在 相同 样本 下 的 输出 来 进行 
训练 的 ， 在 传统 Softmax 分 类 器 中 ， 给 定 任 何 
输入 图 片 x， 模 型 生成 一 个 向 量 S'(x)= 
[ Si(x), Ss(Xx),…,Si(x)]， 其 中 ，Si(x) 代 表 第 
种 病害 所 对 应 的 得 分 ， 在 神经 网 络 的 最 后 ， 使 用 
Sofimax 作为 分 类 器 将 神经 网 络 的 输出 S'(x) 转 化 
REED p(x), Mpa pia), pix), …, 
pi(x)] ， 对 于 p'(x) 中 的 每 个 元 素 pi(x)， 其 计算 
方法 如 公式 2 所 示 。 


si (x) 


pi (x)= 5 (2) 
E 


Hinton 等 ” 提出， 训练 有 素 的 教师 模型 的 
输出 会 无 限 接近 于 One-Hot 编码 的 真实 输出 ， 这 
就 造成 有 用 的 类 间 信 息 在 训练 过 程 中 被 忽视 ， 
进而 直接 导致 学 生 模型 的 训练 效果 不 理想 ， 因 
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此 ， 需 要 使 用 温度 标 度 “软化 ”这 些 概率 ， 如 公 
sk (3) 所 示 。 


ett 


pN 

其 中 ,7 是 可 调 的 超 参 数 ，7T > 1。 通 过 在 
So1jizax 分 类 器 中 加 入 7 这 一 参数 ， 学 生 会 类 似 
地 产生 更 “柔和 ”的 分 类 概率 分 布 疡 (x)， 从 而 
保留 了 样本 不 同类 别 之 间 的 概率 关系 。 与 使 用 传 
统 One-Hot 编 码 "” 的 硬 标签 作为 训练 目标 相 比 ， 
由 于 教师 模型 经 过 Sofier - Sofimax 分 类 器 后 输出 
的 软 目 标 很 好 地 保留 了 样本 不 同类 别 之 间 的 概率 
关系 ， 所 以 通常 会 带 来 更 好 的 性 能 。 为 了 获得 更 
好 的 分 类 结果 ， 将 知识 蒸馏 中 的 损失 函数 由 交叉 
WEN EPR, S BCH MAB RAM, 
满足 : 0<BC<1， 其 关系 定义 如 公式 (4) 所 示 。 

BC(P,Q) = X/P@)O(x) (4) 

其 中 ，P、0O 分 别 表示 教师 模型 和 学 生 模 型 ; 
P(x) 和 Q(x) 分 别 代表 教师 模型 和 学 生 模 型 的 
输出 。 


(3) 


Pr(x) = 


图 6 知识 蒸馏 结构 图 


Fig. 6 Diagram of knowledge distillation structure 

同时 ， 在 损失 函数 的 设计 上 ， 使 用 两 个 不 同 
Fl by PROC INP EE, AP, MR PR L o A 
来 表示 当 教 师 模型 和 学 生 模型 共享 相同 的 温度 了 
时 ， 教 师 模 型 和 学 生 模型 输出 之 间 的 巴 氏 距 离 ; 
HR PR BCL 4, 为 学 生 模型 和 真实 标签 之 间 的 交叉 


由 公式 (4) 可 知 ， 当 PP、0O 两 个 标签 趋同 
时 ， 巴 氏 系 数值 3BC 会 随 之 变 大 ; 而 当 两 个 标签 
完全 没有 重 闪 时 ，BC 将 会 趋 于 零 。 

KHE REKE Leo Los MEER KZ 
工分 别 如 公式 (5) ~ (7) 所 示 : 


Lip = -In(BC(r,(x), p(x) )) (5) 
La = -ln (BC (4,(x), pi(x))) (6) 
L=aL,, +(1- a)Lx, (7) 


其 中 ，g,(x) 为 样本 的 真实 标签 ; rx, (x) 为 教 
师 模型 的 输出 ; a 为 可 调 的 超 参 数 ; 通常 
Te {1,3,4,5}, a e [0.5, 0.9 ]。 

本 研究 通过 知识 蒸馏 的 方法 ， 结 合 公式 
(5) ~ (7) PERR EKZ, IAR T A f A 
Distilled-MobileNet。 首 先 ， 使 用 图 像 的 真实 标签 


焙 。 最 后 ， 通 过 线性 加 权 的 方式 计算 损失 函数 
L, WAR (8) 所 示 。 

L=aL,,+ (1 - a)Lep (8) 

表 2 给 出 了 模型 在 不 同 a 和 7 下 的 试验 结果 。 
经 试验 验证 ， 当 超 参 数 wx 的 值 设 为 0.6、 蒸 馏 温 
度 了 的 值 为 3 时 ， 模 型 验证 集 准确 率 达 到 最 高 
90.62%， 表 明 模 型 获得 最 佳 性 能 。 

表 2 参数 a 和 7 对 模型 验证 集 准确 率 的 影响 


Table 2 Influence of the parameters a and T on the accuracy 


of the model validation set 


单位 :% 
T a=0.2 a=0.4 a=0.6 a=0.8 
1 83.59 84.93 89.06 79.86 
2 84.37 82.81 87.50 77.34 
3 81.25 85.15 90.62 80.46 
4 75.40 82.13 85.49 83.21 


来 预 训练 教师 模型 ， 之 后 再 使 用 相同 的 训练 样本 
作为 学 生 模 型 的 输入 并 进行 训练 ， 所 建立 的 Dis- 
tilled-MobileNet 模 型 与 教师 模型 相 比 ， 可 以 达到 
轻 量 级 的 体积 。 图 6 给 出 了 知识 蒸馏 的 具体 
结构 。 


4 试验 结果 及 分 析 


本 试验 硬件 环境 包括 具有 Intel i9-10900X 
(3.20 GHz) 10 核 20 线程 CPU, NVIDIA Ge- 
Force RTX2080Ti 11GBx2 的 服务 器 。 软 件 环境 为 
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64 位 Windows10 #4, CUDA 9.0, CUDNN 7.0, 
PyCharm 2018.2。 用 于 训练 模型 的 试验 框架 的 前 
端 和 后 端 分 别 是 Keras 和 Tensorflow。 

为 确保 试验 结果 的 公平 性 和 有 效 性 ， 本 研究 
对 超 参 数 进 行 了 统一 化 。 将 学 习 率 设置 为 0.001， 
batch size 设置 为 128，L2 正则 化 参数 设置 为 
0.0005。 

其 次 ， 在 模型 训练 中 使 用 了 SGD Adam 和 
Nadam 三 种 不 同 的 优化 器 ， 该 类 优化 算法 应 用 在 
非 凸 优化 问题 中 有 计算 高 效 、 所 需 内 存 少 等 诸多 
优势 ， 三 种 优化 算法 超 参数 的 具体 参数 如 表 3 


所 示 。 
表 3 使 用 三 种 优化 器 的 CNN 训练 超 参 数 
Table 3 CNN training hyperparameters using 


three optimizers 


超 参数 SGD Adam Nadam 
Batch Size 32 32 32 
Learning Rate 0.001 0.001 0.001 
Momentum 0.9 = = 

Decay None None None 
Pi = 0.9 0.9 

pb, = 0.999 0.999 
€ = le” ker? 


4.1 学 习 模 型 性 能 测试 
为 确定 教师 和 学 生 网 络 最 佳 模型 ， 本 研究 在 


验证 集 准确 率 


— MobileNetV1 
-一 GoogleNet 


| i į į i į į i j i 1 į į 
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 


BRAK 
(a) 验 证 集 准 确 率 变化 曲线 


一 MobileNetV1 
一 GoogleNet 


损失 函数 


| | | 1 
0 10 2 30 40 50 6 70 80 90 100 10 120 130 140 
迭代 次 数 /次 


(b) 损 失 函 数 变化 曲线 
图 7 模型 验证 集 准 确 率 与 损失 函数 变化 曲线 图 
Fig. 7 Model validation accuracy rates and 
loss function change curves 
占用 分 别 达到 了 1022.6 和 443.0 MB ， 这 必然 会 
降低 某 些 设备 〈 如 智能 手机 ， 物 联网 设备 甚至 是 
计算 能 力 较 低 的 计算 机 ) 的 运行 速度 ， 同 时 占用 
大 量 内 存 空间 。 因 此 ， 本 研究 将 在 上 述 方法 的 基 
础 上 ， 使 用 知识 蒸馏 方法 对 模型 进行 压缩 。 
表 4 不 同 网 络 结构 在 PlantVillage 数据 集 上 的 表现 
Table 4 Performances of different network structures in the 
PlantVillage data set 


128x128 大 小 的 3 通道 RGB 图 像 下 对 比 了 
VGG16、 AlexNet、GoogLeNet、 MobileNet 和 
ResNet 5 种 主流 神经 网 络 结构 的 验证 集 准确 率 、 
损失 冰 数 以 及 参数 量 的 大 小 。 图 7 给 出 了 迭代 过 
程 中 验证 集 准 确 率 与 损失 函数 变化 情况 。 

由 图 7 (a) 可 以 看 出 ,不同 模型 在 近 代 过 程 
中 验证 集 准确 率 变 化 呈现 不 同 特点 。 具 体 来 讲 ， 
除 GoogleNet 外 ，5 种 模型 在 迭代 过 程 中 其 准确 
率 均 出 现 抖 动 现象 ， 对 于 MobileNet 模 型 ， 虽 在 
初始 迭代 时 验证 集 准确 率 较 低 ， 但 随 着 训练 的 深 
入 ， 准 确 率 一 直 呈 现 上 升 趋势 ， 且 在 75$ 轮 后 超 
越 了 其 余 5 种 模型 的 准确 率 ， 说明 MobileNet 模 
型 相 较 于 其 他 对 比 模型 具有 较 高 稳定 性 。 

表 4 给 出 了 5 种 模型 最 终 验 证 集 准确 率 的 对 
比 情 况 。 可 知 ，VGG16 和 AlexNet 虽 准确 率 较 
高 ， 但 模型 内 存在 128x128 的 3 通道 输入 下 内 存 


网 络 模 型 验证 集 准 确 率 /% ”内 存 占用 /MB 
ResNet 94.44 181.3 
AlexNet 89.97 443.0 
VGG16 96.52 1022.0 

MobileNet 92.05 25-1 

GoogleNet 76.58 58.1 


结合 不 同 模型 的 内 存 占用 情况 ， 本 研究 选用 
MobileNet 作为 知识 蒸馏 的 学 生 网 络 。 此 结果 与 
本 研究 之 前 的 设计 相 一 至 


4.2 知识 蒸馏 在 不 同 模型 上 的 表现 


表 5 给 出 了 知识 蒸馏 在 VGG16、AlexNet、 
GoogleNet 和 ResNet 4 种 不 同 网 络 结构 上 的 表现 。 
根据 表 5 可 知 ， 由 于 学 生 模型 不 仅 学 习 样 本 的 真 
实 标签 ， 同 时 还 学 习 了 教师 模型 产生 的 保留 了 类 
间 关 系 的 软化 标签 ， 因 而 不 同 网 络 结构 经 过 知识 
蒸馏 后 ， 模 型 准确 率 均 出 现 了 明显 提升 22 平 
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均 提 升 了 1.42%。 具 体 地 说 ， 当 VGG16 作 为 教师 
模型 时 ,模型 准确 率 提升 了 2.04%， 达 到 
97.54%， 相 比 于 ResNet 作 为 教师 模型 ， 准 确 率 


提高 了 2.38%， 因 此 ， 经 过 综合 考虑 识别 准确 率 
和 识别 时 间 两 个 因素 ， 本 人 研究 最 终 选 择 将 
VGG16 作 为 教师 模型 。 


RS 知识 蒸馏 在 不 同 教师 /学 生 模 型 上 的 表现 


Table 5 The performance of knowledge distillation on different teacher/student models 


Benepe smes 准确 率 /% 模型 内 存 /MB KoE 识别 时 间 / ms 
poe Pe ! pe A AA PE AIX % 
. 教师 学 生 教师 学 生 教师 学 生 
VGG16 95.50 97.54 304.0 20.8 93.16 1635 261 
人 AlexNet 93.56 94.89 356.6 21.0 94.11 490 254 
Sais GoogleNet 92.19 94.70 36.6 20.9 42.90 487 260 
ResNet 95.36 95.16 179.8 21.0 88.32 928 249 
平均 = = == — 79.62 -一 一 一 
在 内 存 方面 ， 由 于 学 生 模 型 均 采 用 Mo- wf 119 
bileNet， 导 致 不 同 网 络 模型 经 过 知识 蒸馏 后 的 内 a PO a 
an ae E 0. i | 
存 相差 不 大 ,但 相 较 于 原 教师 模型 内 存 则 出 现 明 和 | eak) °° g 
sie a} YN d oa B 
显 降 低 ， 平 均 降低 79.62%， 其 中 AlexNet 模 型 压 goaa i 
a i es = 2 上 WMA ay Pes lo: 
缩 率 最 高 ， 达 到 94.11%。 总 的 来 说 ， 试 验 结 pma ADE dia iad 
EPA ` We ae ee 0 20 40 60 80 100 120 140 
表明 ， 知 识 蒸馏 不 仅 可 以 加 快 模型 的 运行 速度 ， 迁 代 次 数 /次 


使 其 满足 实时 性 要 求 ， 同 时 还 能 减少 模型 内 存 。 
4.3 真实 环境 下 的 性 能 测试 


为 评估 Distilled-MobileNet 模 型 在 真实 环境 
下 的 表现 ， 本 研究 在 由 广西 壮族 自治 区 农业 科学 
院 提 供 的 真实 数据 集合 上 用 3.2 节 所 述 方法 对 经 
过 知识 蒸馏 改进 的 Distilled-MobileNet 模型 进行 
了 性 能 测试 。 模 型 训练 过 程 中 的 准确 率 和 损失 郴 
数 变 化 曲线 如 图 8 所 示 。 

从 图 8 中 可 以 看 出 ， 在 训练 过 程 中 ,损失 矣 
数 下 降 平稳 ， 同 时 ， 模 型 的 验证 集 准确 率 呈 整体 
上 升 趋势 ， 且 模型 的 收敛 速度 很 快 ， 在 60 RIE 
代 后 即 达 到 了 较 好 的 收敛 状态 。 

使 用 单个 病害 识别 率 、 平 均 准 确 率 、 模 型 内 
存 、 平 均 识别 时 间 4 个 指标 对 训练 好 的 Distilled- 


图 8 迭代 次 数 对 模型 识别 准确 座 的 影响 
Fig. 8 Effects of iteration times on model recognition 


accuracy and loss function 


MobileNet 模型 进行 准确 性 评估 。 模 型 在 真实 环 
境 下 的 评估 结果 见 表 6。 结 果 表 明 ， 模 型 的 平均 
准确 率 达 到 了 97.62%， 平 均 识 别 时 间 缩 短 至 
0.218 s， 仅 占 VGG16 模 型 的 13.20%， 模 型 大 小 
压缩 仅 为 19.83 MB， 相 比 于 VGG16 缩小 了 
93.60%。 综 上 ，Distilled-MobileNet 模型 通过 将 
复杂 模型 转化 为 简单 的 小 模型 ， 使 其 能 够 部 署 在 
单片机 、 智 能 手机 中 ， 从 而 能 够 不 受 不 同 应 用 场 
景 对 于 模型 的 内 存 、 时 间 限 制 ， 更 能 满足 不 同 应 
用 场景 的 要 求 ， 由 此 证 明了 本 方法 的 有 效 性 和 可 
行 性 。 


表 6 真实 环境 下 的 模型 性 能 测试 


Table 6 Model performance testing in real environment 


四 单个 病害 识别 率 /% i l 
识别 模型 - 一 平均 准确 率 /% ”内 存 占 用 /MB ”平均 识别 时 间 /s ”总 识别 时 间 /s 
芒果 白粉 病 。” 芒果 炭 痊 病 
VGG16 95.68 94.55 95.15 309.98 1.652 15,636 
AlexNet 94.51 94.77 94.64 359.43 0.494 4675 
GoogleNet 94.03 95.14 94.58 37.49 0.487 4609 
ResNet 94.17 93.20 93.68 183.47 0.943 8925 


Distilled-MobileNet 97.59 97.65 97.62 19.83 0.218 2063 
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5 总 结 


本 研究 针对 常规 的 植物 病害 识别 方法 存在 的 
识别 效率 较 低 的 问题 ， 提 出 了 基于 知识 蒸馏 的 结 
构 化 压缩 模型 Distilled-MobileNet， 与 经 典 的 卷 
积 神经 网 络 模型 相 比 ， 本 方法 的 优越 性 是 能 够 在 
略微 提高 准确 率 的 同时 大 幅 降低 参数 内 存 占 用 
量 、 缩 短 识 别 时 间 ， 从 而 使 模型 满足 更 高 的 实时 
性 要 求 。 本 研究 对 不 同 模型 的 性 能 进行 了 对 比分 
析 ， 取 得 的 主要 试验 结果 及 结论 如 下 。 

(1) 对 比 了 VGG16，AlexNet，GoogLeNet， 
MobileNet 和 ResNet 共 5 种 网 络 结构 的 准确 率 及 
参数 内 存 占 用 量 ， 结 果 表 明 ， 虽 然 MobileNet 准 
确 率 略 低 于 VGG16 和 ResNet， 但 网 络 参 数 最 少 ， 
此 ， 本 研究 选择 MobileNet 作 为 知识 蒸馏 中 的 
学 生 模型 。 

(2) 对 比 了 知识 莹 饮 在 不 同 教师 /学 生 模 型 
上 的 表现 ， 结 果 表 明 Distilled-MobileNet 模型 
可 以 在 小 幅 提 高 准确 率 同时 明显 降低 模型 的 参数 
量 内 存 ， 加 快 模型 识别 速度 。 
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Distilled-MobileNet Model of Convolutional Neural 
Network Simplified Structure for Plant Disease Recognition 
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Abstract: The development of convolutional neural networks(CNN) has brought a large number of network parameters and huge 
model volumes, which greatly limites the application on devices with small computing resources, such as single-chip microcom- 
puters and mobile devices. In order to solve the problem, a structured model compression method was studied in this research. 
Its core idea was using knowledge distillation to transfer the knowledge from the complex integrated model to a lightweight 
small-scale neural network. Firstly, VGG16 was used to train a teacher model with a higher recognition rate, whose volume was 
much larger than the student model. Then the knowledge in the model was transfered to MobileNet by using distillation. The pa- 
rameters number of the VGG16 model was greatly reduced. The knowledge-distilled model was named Distilled-MobileNet, 
and was applied to the classification task of 38 common diseases (powdery mildew, Huanglong disease, etc.) of 14 crops (soy- 
bean, cucumber, tomato, etc.). The performance test of knowledge distillation on four different network structures of VGG16, 
AlexNet, GoogleNet, and ResNet showed that when VGG16 was used as a teacher model, the accuracy of the model was im- 
proved to 97.54%. Using single disease recognition rate, average accuracy rate, model memory and average recognition time as 
4 indicators to evaluate the accuracy of the trained Distilled-MobileNet model in a real environment, the results showed that, the 
average accuracy of the model reached 97.62%, and the average recognition time was shortened to 0.218 s, only accounts for 
13.20% of the VGG16 model, and the model size was reduced to only 19.83 MB, which was 93.60% smaller than VGG16. 
Compared with traditional neural networks, distilled-mobile model has a significant improvement in reducing size and shorting 
recognition time, and can provide a new idea for disease recognition on devices with limited memory and computing resources. 


Key words: disease identification; deep learning; model compression; knowledge distillation; convolutional neural network 
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